import org.apache.spark.sql.SparkSession
val spark=SparkSession.builder().getOrCreate()
import spark.implicits._
val df = spark.read.json("file:///usr/local/spark/employee.json")
//(1)查询DataFrame的所有数据
df.show()
//(2)查询所有数据，并去除重复的数据
df.distinct().show()
//(3)查询所有数据，打印时去除id字段
df.drop("id").show()
//(4)筛选age>20的记录
df.filter(df("age")>20).show()
//(5)将数据按name分组
df.groupBy("name").count().show()
//(6)将数据按name升序排列
df.sort(df("name").asc).show()
//(7)取出前3行数据
df.head(3)
//(8)查询所有记录的name列，并为其取别名为username
df.select(df("name").as("username")).show()
//(9)查询年龄age的平均值
import org.apache.spark.sql.{functions => F}
df.select(F.avg("age").as("avg_age")).show()
//(10)查询年龄age的最小值
import org.apache.spark.sql.{functions => F}
df.select(F.min("age").as("min_age")).show()

